教程:如何构建临床预测模型? 复现一篇5分论文的全过程 您所在的位置:网站首页 构建临床预测模型的七大步骤 教程:如何构建临床预测模型? 复现一篇5分论文的全过程

教程:如何构建临床预测模型? 复现一篇5分论文的全过程

2024-06-18 21:09| 来源: 网络整理| 查看: 265

2023年郑老师多门科研统计课程:多次直播,含孟德尔随机化方法 

临床预测模型(clinical prediction model),是指利用数学模型估计研究对象当前患有某病的概率或者将来发生某种结局的可能性。也就是说,临床预测模型是通过已知特征来预测未知,而模型就是一个数学公式,也就是把已知的特征通过这个模型计算出未知结局发生的概率。

临床预测模型作为临床研究的“高阶玩法”,不仅仅是改变临床实践的重要途径,更是发表高分SCI文章的热门选择。但不论零基础的小白,还是已经了解过临床预测模型的同学,刚开始都会一头雾水。虽然简单概括,Cox回归预测模型的基础统计策略离不了“一表四图”,即均衡性表、列线图、校准图、ROC图、DCA图。但是通过R语言完成需要几百行代码,想想就头大。这里为大家介绍一个可以一站式完成Cox回归预测模型分析的“神器”——风暴统计。操作简单,分分钟完成“一表四图”,还可以免费下载完整表格与图片结果。

今天我们就通过利用风暴统计平台复现一篇SEER数据库文章,为大家展示构建Cox预测模型的全过程并详细介绍网站的各种功能及使用方法。 

主要内容包括:

一、文献解读

二、利用在线网站“风暴统计”复现

一、文献解读

案例文献是沈阳医学院公共卫生学院学者基于SEER数据库的一项回顾性研究,旨在建立一个列线图来预测老年恶性骨肿瘤(MBT)患者的总生存期(OS)。

1、摘要

背景:恶性骨肿瘤(MBT)是老年患者死亡的原因之一。我们研究的目的是建立一个列线图来预测老年MBT患者的总生存期(OS)。

方法:从SEER数据库下载了2004年至2018年所有老年MBT患者的临床病理数据。他们被随机分配到训练集(70%)和验证集(30%)。采用单因素和多因素Cox回归分析确定老年MBT患者的独立危险因素。基于这些危险因素构建列线图,以预测老年MBT患者的1年,3年和5年OS。然后,利用一致性指数(C指数)、校准曲线和受试者工作曲线下面积(AUC)来评价预测模型的准确性和判别力。决策曲线分析(DCA)用于评估列线图的临床潜在应用价值。根据列线图上的分数,将患者分为高风险组和低风险组。Kaplan-Meier(K-M)曲线用于测试两名患者之间的生存差异。

结果:从SEER数据库下载了2004年至2018年所有老年MBT患者的临床病理数据。他们被随机分配到训练集(70%)和验证集(30%)。采用单因素和多因素Cox回归分析确定老年MBT患者的独立危险因素。基于这些危险因素构建列线图,以预测老年MBT患者的1年,3年和5年OS。然后,利用一致性指数(C指数)、校准曲线和受试者工作曲线下面积(AUC)来评价预测模型的准确性和判别力。决策曲线分析(DCA)用于评估列线图的临床潜在应用价值。根据列线图上的分数,将患者分为高风险组和低风险组。Kaplan-Meier(K-M)曲线用于测试两名患者之间的生存差异。

结论:我们建立了一个新的列线图来预测老年MBT患者的1年,3年,5年的OS。该预测模型可以帮助医生和患者制定治疗计划和后续策略。

2、数据介绍

文献共纳入1641名2004-2018诊断的老年MBT患者的临床病理数据。暴露因素包括年龄、种族、性别、诊断年份、组织学类型、分级、分期、原发位置、TNM分期、肿瘤大小、是否化疗、是否放疗及手术方式。

3、研究结果

这篇文献构建Cox回归预测模型的统计思路十分清晰。首先按照7:3将数据集进行拆分获得训练集与验证集,然后做均衡性检验,比较训练集和验证集的差异性,再做单因素和多因素Cox回归,筛选变量构建列线图预测模型,最后通过校准图、ROC曲线、DCA曲线对模型的校准度、区分度以及临床决策的实际需要进行评价。

①基线均衡表 

②列线图的建立

利用训练集数据,通过单因素Cox回归与多因素Cox回归筛选预测变量。这里作者并未使用先单后多或者是逐步回归法筛选预测变量,可能从临床实际考虑的更多,在实操过程中推荐大家使用逐步回归法进行筛选。

最终纳入10个变量建立了列线图。通过患者的个体特征对照列线图相加可以获得总分,表明每个患者的MBT的特异性生存概率。

 ②模型校准度验证——校准图

A-C是训练集1年、3年、5年患者的总生存期校准图,D-F是验证集1年、3年、5年患者的总生存期校准图。曲线与对角线重合度越高,说明模型的校准度越好。 

③模型区分度验证——ROC曲线(AUC面积)

A图是训练集1年、3年、5年患者的总生存期的ROC曲线;B图是验证集1年、3年、5年患者的总生存期的ROC曲线。ROC曲线下面积又叫AUC面积,这个值越大说明预测模型的而判别区分能力越好。

④模型临床决策实际需求评估——DCA曲线

A图是训练集1年、3年、5年患者的总生存期的DCA曲线;B图是训练集1年、3年、5年患者的总生存期的DCA曲线,红色线条代表列线图模型(包括构建模型的10个变量),黄色线条代表TNM模型(仅纳入TNM分期3个变量),两个模型对比,线条越靠上说明在实际临床中的应用价值越大,可参考性越强。

 二、利用在线网站“风暴统计”复现

如果没有代码基础,或者希望通过更便捷的方式进行统计分析,推荐使用这个智能在线统计分析平台——风暴统计。可以一站式完成Cox预测模型基础统计分析,便捷又快速。

它的网址是www.medsta.cn/software(在电脑端浏览器打开)浏览器输入medsta.cn即可(medical statistics缩写)

1、进入网站分析模块

电脑端打开风暴统计平台——“风暴智能统计”模块,点击“临床预测模型(最新)”,进入“cox预测模型”页面。 

2、导入数据集

导入的数据是我们利用SEERStat根据纳入排除标准,提取文献涉及的相关数据。最终共纳入1,574名患者(原文献1,641)。介于SEERStat数据库会有更新,因此提取的样本量与原文会有所出入,这里请大家多关注统计方法的运用!包含的暴露因素有年龄、种族、性别、诊断年份、组织学类型、分级、分期、原发位置、TNM分期、肿瘤大小、是否化疗、是否放疗及手术方式。

3、数据的整理转换(1)定量变量转分类数据首先点击“数据整理转换”模块,选择定量变量(以年龄为例),选择“自定义分组”,输入分组临界值,点击开始分组,即可产生一个新变量“age_group”.(如遇显示不全,可下载新数据查看)

详情请点击下方:

https://mp.weixin.qq.com/s?__biz=MzAwOTYyMDY3OQ==&mid=2650408204&idx=1&sn=96085f921c890ee9a94b80cdef65f8e8&chksm=835278a4b425f1b2ba0c16cb11b9f0720d794b214a5ea373c879f1372c7120a6b2eb53d5b1e0&token=1471575859&lang=zh_CN#rd



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有